CN112131366B - 训练文本分类模型及文本分类的方法、装置及存储介质 - Google Patents
训练文本分类模型及文本分类的方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112131366B CN112131366B CN202011009658.0A CN202011009658A CN112131366B CN 112131366 B CN112131366 B CN 112131366B CN 202011009658 A CN202011009658 A CN 202011009658A CN 112131366 B CN112131366 B CN 112131366B
- Authority
- CN
- China
- Prior art keywords
- feature vector
- text classification
- text
- layer
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 172
- 238000013145 classification model Methods 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 145
- 238000003860 storage Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 193
- 230000006870 function Effects 0.000 claims description 67
- 230000008569 process Effects 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 17
- 230000008485 antagonism Effects 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 46
- 238000013473 artificial intelligence Methods 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 14
- 238000010801 machine learning Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 7
- 201000010099 disease Diseases 0.000 description 7
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种训练文本分类模型及文本分类的方法、装置及存储介质,涉及人工智能云技术,以提高文本分类的准确性。通过输入层将第一样本数据输入语言模型编码层,获得第一样本数据的第一特征向量,第一样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;通过嵌入层中引入的关键词突出操作,将第一特征向量中用于表征文本信息的特征向量,根据第一特征向量中用于表征问答对的特征向量进行关键词突出,以获得文本信息的第二特征向量;将第二特征向量和用于表征问答对的特征向量输入到全连接层,确定问答对中问题对应的答案概率;根据全连接层输出的答案概率和第一样本数据中的答案,反向调整语言模型编码层的模型参数。
Description
技术领域
本申请涉及自然语言处理领域,提供一种训练文本分类模型及文本分类的方法、装置及存储介质。
背景技术
随着科技和互联网技术的发展,数据量的不断增加,采用文本分类方法可以高效的从数据中获得有使用价值的数据。目前,文本分类方法主要采用人工智技术中的机器学习或深度学习的技术确定。
基于机器学习的文本分类方法主要将文本分类问题分成特征工程和分类器两部分。其中特征工程包含文本预处理、特征提取、文本表示等部分。在此过程中首先对文本进行清洗,利用分词工具对文本分词,再利用词袋法、TF-IDF(term frequency–inversedocument frequency,词频逆文本频率指数)等方法将文本表示成向量形式,将向量输入到如SVM(Support vector machines,支持向量机)、决策树等分类器中,以得到最终的分类结果。但在机器学习中特征表达能力弱,且需要人工进行特征处理,最终导致文本分类的准确率较低。
基于深度学习的文本分类方法,首先对文本进行清洗与分词,然后基于神经网络如word2vec将文本转化为稠密的分布式词向量,再通过神经网络如CNN(ConvolutionalNeural Networks,卷积神经网络)或LSTM(Long Short-Term Memory,长短时记忆网络)对数据进行训练以得到最优结果。但在深度学习中存在模型训练困难、模型结构不合适等问题导致文本分类的准确率较低。
综上,现有技术中的文本分类方法在处理文本分类问题时准确性较低。
发明内容
本申请实施例提供一种训练文本分类模型及文本分类的方法、装置及存储介质,提供一种基于问答式的文本分类模型的训练方法,用以及提高文本分类的准确性。
第一方面,本申请实施例提供一种训练文本分类模型的方法,该方法包括:
获取第一训练样本集,第一训练样本集中的每个第一样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;
根据第一样本数据,对文本分类模型执行多轮第一迭代训练,以获得已训练的文本分类模型;
其中,文本分类模型包含输入层、语言模型编码层、嵌入层(Embedding)以及全连接层,每轮第一迭代训练过程为:
通过输入层将第一样本数据输入语言模型编码层,获得第一样本数据的第一特征向量;
将第一特征向量输入嵌入层,通过嵌入层中引入的关键词突出操作,根据第一特征向量中用于表征问答对的特征向量,对第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得文本信息的第二特征向量;
将第二特征向量和用于表征问答对的特征向量输入到全连接层,确定问答对中问题对应的答案概率;
根据全连接层输出的答案概率和第一样本数据中的答案,反向调整语言模型编码层的模型参数。
第二方面,本申请提供一种文本分类的方法,该方法包括:
获取包含有文本数据的文本分类请求,其中文本数据包含目标问题和用于判断目标问题是否正确的目标文本信息;
将文本数据输入到已训练的文本分类模型中,基于已训练的文本分类模型,确定目标问题是否正确的文本分类结果;其中已训练的文本分类模型为通过第一方面的方法训练得到的。
第三方面,本申请实施例提供一种训练文本分类模型的装置,该装置包括:
第一获取单元,用于获取第一训练样本集,第一训练样本集中的每个第一样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;
训练单元,用于根据第一样本数据,对文本分类模型执行多轮第一迭代训练,以获得已训练的文本分类模型;
其中,文本分类模型包含输入层、语言模型编码层、嵌入层以及全连接层,训练单元具体用于:
通过输入层将第一样本数据输入语言模型编码层,获得第一样本数据的第一特征向量;
将第一特征向量输入嵌入层,通过嵌入层中引入的关键词突出操作,根据第一特征向量中用于表征问答对的特征向量,对第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得文本信息的第二特征向量;
将第二特征向量和用于表征问答对的特征向量输入到全连接层,确定问答对中问题对应的答案概率;
根据全连接层输出的答案概率和第一样本数据中的答案,反向调整语言模型编码层的模型参数。
在一种可能的实现方式中,训练单元具体用于:
识别第一样本数据的问答对中关键词的词性,并根据词性设置词性标签集合;
针对所第一样本数据的文本信息中的每个词,确定词性标签,并根据词性标签是否在词性标签集合中的判定结果,对每个词的特征向量增加目标向量,以获得第二特征向量。
在一种可能的实现方式中,在嵌入层之后继续设置至少一个全连接层,每个全连接层对应一个任务,并针对每个任务设置一个损失函数;
第一获取单元,还用于获取第二训练样本集,第二训练样本集中包含经过数据增强处理后的第二样本数据,且每个第二样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;
训练单元,还用于根据第二样本数据在已训练的文本分类模型基础上,执行多轮第二迭代训练,以获得再次训练的文本分类模型;
训练单元具体用于:
通过输入层将第二样本数据输入已训练的文本分类模型的语言模型编码层,获得第二样本数据的特征向量;
将第二样本数据的特征向量通过已训练的文本分类模型的嵌入层,生成固定维度的特征向量;
将嵌入层输出的特征向量分别输入到每个任务对应的全连接层,并确定每个任务对应的损失函数;
根据每个任务的损失函数,反向调整已训练的文本分类模型的语言模型编码层的模型参数。
在一种可能的实现方式中,训练单元具体用于:
按照预先设定的任务权重比例,对每个任务对应的损失函数进行加权处理,得到目标损失函数;
根据目标损失函数,反向调整已训练的文本分类模型的语言模型编码层的模型参数。
在一种可能的实现方式中,数据增强处理包括下列之一或组合:
按照设定的第一比例随机将文本数据中的词替换为同义词表中的词;
按照设定的第二比例随机挑选文本中的词并将其随机***在文本中的任一位置;
按照设定的第三比例随机删除文本信息中的词;
按照设定的第四比例随机选定文本信息中的两个词并进行位置反转。
在一种可能的实现方式中,训练单元还用于:
根据语言模型编码层输出的特征向量,获得第一损失函数;
根据第一损失函数,确定第一梯度值;
根据嵌入矩阵的梯度值与第一梯度值计算出扰动向量,并加到嵌入层降维处理后的特征向量上,得到对抗向量;
根据对抗向量,确定第二损失函数;
根据第二损失函数,反向得到对抗梯度值,累加到第一梯度值上,获得目标梯度;
根据目标梯度,调整语言模型编码层的模型参数。
在一种可能的实现方式中,语言模型编码层为BERT(Bidirectional EncoderRepresentation from Transformers,变压器的双向编码器表示)、Roberta(A RobustlyOptimized BERT Pretraining Approach,强力优化的BERT)、XLNet中的一种。
第四方面,本申请实施例提供一种文本分类的装置,该装置包括:
第二获取单元,用于获取包含有文本数据的文本分类请求,其中文本数据包含目标问题和用于判断目标问题是否正确的目标文本信息;
确定单元,用于将文本数据输入到已训练的文本分类模型中,基于已训练的文本分类模型,确定目标问题是否正确的文本分类结果;其中已训练的文本分类模型为通过第一方面的方法训练得到的。
第五方面,本申请实施例提供一种计算装置,包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有程序代码,处理器用于读取存储器中存储的程序代码,并执行如第一方面中的训练文本分类模型的方法和第二方面中的文本分类方法。
第六方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的第一方面中的训练文本分类模型的方法和第二方面中的文本分类方法。
本申请有益效果如下:
本申请提供一种训练文本分类模型及文本分类的方法、装置及存储介质,涉及人工智能云技术,特别涉及自然语言处理技术。本申请中,获取第一训练样本集,第一训练样本集中的每个第一样本数据中都包含有至少一组问答对和用于确定问答对中问题的答案的文本信息,并根据第一样本数据对文本分类模型执行对多轮第一迭代训练,以获得已训练的文本分类模型。在每轮第一迭代训练的过程中,通过输入层将第一样本数据输入到语言模型编码层,获得第一样本数据的第一特征向量;之后通过嵌入层中引入的关键词突出操作,根据第一特征向量中用于表征问答对的特征向量,对第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得文本信息的第二特征向量;将第二特征向量和用于表征问答对的特征向量输入到全连接层,确定问答对中问题对应的答案概率;根据全连接层输出的答案概率和第一样本数据中的答案,反向调整语言模型编码层的模型参数。由于在训练文本分类模型的过程中采用关键词突出操作,根据问答对中的词对文本信息中的词进行突出操作,提高问答对和文本信息的关联度,以基于文本信息确定问答对中的问题的答案更加准确,进一步根据确定的答案和样本数据中的答案进行模型训练时,因此已训练的文本分类模型可以提高文本信息和问答对的关联度,进一步保证基于问答式文本分类的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种文本分类的方法流程图;
图3为本申请实施例提供的一种文本分类模型的结构图;
图4为本申请实施例提供的第一种迭代训练文本分类模型的方法流程图;
图5为本申请实施例提供的一种第一样本数据拼接处理的示意图;
图6为本申请实施例提供的另一种文本分类模型的结构图;
图7为本申请实施例提供的另一种文本分类模型的结构图;
图8为本申请实施例提供的另一种文本分类模型的训练方法流程图;
图9为本申请实施例提供的第二种迭代训练文本分类模型的方法流程图;
图10为本申请实施例提供的一种文本分类的方法流程图;
图11为本申请实施例提供的一种文本分类的整体方法流程图;
图12为本申请实施例提供的一种训练文本分类模型的装置结构图;
图13为本申请实施例提供的一种文本分类的装置结构图;
图14为本申请实施例提供的一种计算设备。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
1、人工智能(Artificial Intelligence,AI):
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
2、自然语言处理(Nature Language processing,NLP):
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
3、机器学习(Machine Learning,ML):
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
4、迁移学习:
迁移学习是利用在相似任务上训练的模型作为模型初始点在原本任务上进行再训练的方法,通过共享模型学到的知识,迁移学习可以加快模型的学习效率并提高模型的泛化性。
5、多任务学习:
多任务学习是利用在相似任务上训练的模型作为模型初始点在原本任务上进行再训练的方法,通过共享模型学到的知识,迁移学习可以加快模型的学习效率并提高模型的泛化性。
6、数据增强:
数据增强包含一系列用来生成新训练样本的技术,这些技术是通过对原始数据采用随机抖动和扰乱而类标签未变化来实现。应用数据增强的目标是增加模型的泛化性。
7、对抗训练:
对抗训练是一种增强模型鲁棒性的重要表示。在对抗训练的过程中,样本会增加一些微小的扰动,是模型犯错,从而模型在训练的过程中能够适应扰动,以增强模型的鲁棒性。
8、快速梯度下降法(Fast Gradient Method,FGM):
快速梯度下降法通过向梯度上升的方向增加扰动,得到新的对抗样本。
9、变压器的双向编码器表示(Bidirectional Encoder Representation fromTransformers,BERT):
变压器的双向编码器表示是一个基于Transformer的在大规模语料库上进行掩码语言模型(Mask Language Model,MLM)和下一句预测(Next Sentence Prediction,NSP)多任务训练得到的预训练语言模型。
10、云技术:
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
下面对本申请实施例的设计思想进行简要介绍。
随着网络技术的不断发展,人工智能技术已应用到各个领域,比如文本分类技术。
相关技术中的文本分类主要分为两类,一类是基于人工智能中的机器学习方法,另一类是基于人工智能中的深度学习的方法。
基于机器学习方法:机器学习分类方法将整个文本分类问题拆分成了特征工程和分类器两部分。特征工程包括文本预处理、特征提取、文本表示等部分。首先对文本进行清洗,利用分词工具对文本分词,再利用词袋法、TF-IDF等方法将文本表示成向量形式再将其输入分类器如SVM、决策树等以得到最终结果。
基于深度学习方法:该方法能够利用神经网络获取有效特征,如卷积神经网络和循环神经网络。同样需要对文本进行清洗与分词,然后通过word2vec等基于神经网络思想的方法将文本转化为稠密的分布式词向量,再通过神经网络如CNN或LSTM对数据进行训练以得到最优结果。
机器学习方法特征表达能力较弱,且需要人工处理特征,而深度学习方法的模型训练困难,训练数据质量过低,因此相关技术中的两种文本分类方法在处理复杂文本分类问题时准确率低。
基于上述问题,本申请提供一种训练文本分类模型及文本分类的方法、装置及存储介质,在训练文本分类模型的过程中,本申请的实施例基于关键词突出和多种增强的问答对进行文本分类模型的训练。
在本申请中,获取第一训练样本集,第一训练样本集中的每个第一样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;根据第一样本数据,对文本分类模型执行多轮第一迭代训练,以获得已训练的文本分类模型;
其中,文本分类模型包含输入层、语言模型编码层、嵌入层以及全连接层,每轮第一迭代训练过程为:
通过输入层将第一样本数据输入语言模型编码层,获得第一样本数据的第一特征向量;将第一特征向量输入嵌入层,通过嵌入层中引入的关键词突出操作,根据第一特征向量中用于表征问答对的特征向量,对第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得文本信息的第二特征向量;将第二特征向量和用于表征问答对的特征向量输入到全连接层,确定问答对中问题对应的答案概率;根据全连接层输出的答案概率和第一样本数据中的答案,反向调整语言模型编码层的模型参数。
本申请中,基于问答对和对应的文本信息作为训练数据对文本分类模型进行训练,并在训练过程中引入关键词突出操作,以提高文本信息和问答对的关联度,提高训练过程中的准确度,因此提高文本分类的准确性。
在一种可能的实现方式中,本申请基于迁移学习引入外部知识,并通过多任务学习对文本分类模型进行监督,同时加入数据增强给模型增加噪音,以增加模型的泛化性以及鲁棒性,从而能够更好地理解文本语义。
具体的,在嵌入层之后继续设置至少一个全连接层,每个全连接层对应一个任务,并针对每个任务设置一个损失函数;
获取第二训练样本集,第二训练样本集中包含经过数据增强处理后的第二样本数据,且每个第二样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;
根据第二样本数据在已训练的文本分类模型基础上,执行多轮第二迭代训练,以获得再次训练的文本分类模型;
其中,每轮第二迭代训练过程为:
通过输入层将第二样本数据输入已训练的文本分类模型的语言模型编码层,获得第二样本数据的特征向量;将第二样本数据的特征向量通过已训练的文本分类模型的嵌入层,生成固定维度的特征向量;将嵌入层输出的特征向量分别输入到每个任务对应的全连接层,并确定每个任务对应的损失函数;根据每个任务的损失函数,反向调整已训练的文本分类模型的语言模型编码层的模型参数。
在一种可能的实现方式中,为提高文本分类模型的准确性,在训练文本分类模型的过程中,加入对抗训练。
具体的,根据语言模型编码层输出的特征向量,获得第一损失函数;根据第一损失函数,确定第一梯度值;根据嵌入矩阵的梯度值与第一梯度值计算出扰动向量,并加到嵌入降维处理后的特征向量上,得到对抗向量;根据对抗向量,确定第二损失函数;根据第二损失函数,反向得到对抗梯度值,累加到第一梯度值上,获得目标梯度;根据目标梯度,调整语言模型编码层的模型参数。
本申请提出了一种基于关键词突出操作和问答式阅读理解方式对文本分类模型进行训练的方法;并在文本分类模型的训练过程中,结合多种增强策略,其中包括数据增强、迁移学习、多任务学习以及对抗训练。关键词突出操作通过对问答对中的关键词进行词性识别,然后判断文本信息中的每个词是否和识别出来的关键词匹配并加入匹配信息以生成新的词向量进行训练,能够帮助文本分类模型更好地学习到文本中的关键信息。为增强模型的泛化能力本申请采用了多种数据增强技术,通过一定的比例对文本中的某些词进行随机删除、替换以及***,给模型的训练数据增加了噪音;并且通过对文本信息中的句子否定化以及对标签进行修改,使模型能够通过对比学到更到的知识。通过在具有相似数据源的数据集上进行训练得到已训练的文本分类模型,再和具有相似任务的数据集进行联合训练即多任务学习,以得到再训练的文本分类模型,再训练的文本分类模型可以增强模型的泛化性以及学习知识的能力。本申请提出的文本分类模型经实验在文本语义理解任务上取得了极高的准确率。
在介绍完本申请实施例的设计思想之后,下面对本申请设置的应用场景进行简要说明。
如图1所示,为本申请实施例提供的一种应用场景示意图。该应用场景中包括终端设备10和服务器11。终端设备10与服务器11之间可以通过通信网络进行通信。
在一种可选的实施方式中,通信网络是有线网络或无线网络。终端设备10以及服务器11可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在本申请实施例中,终端设备10为用户使用的电子设备,该电子设备可以是个人计算机、手机、平板电脑、笔记本、电子书阅读器等具有一定计算能力并且运行有即时通信类软件及网站或者社交类软件及网站的计算机设备;
服务器11可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备10可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备10以及服务器11可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,文本分类模型可部署于服务器11上进行训练,服务器11中可存储有大量训练样本,包含至少一组问答对和用于确定问答对中问题的答案的文本信息,用于训练文本分类模型。可选的,在基于本申请实施例中的训练方法训练得到文本分类模型之后,可直接将训练好的文本分类模型部署于服务器11或终端设备10上。一般情况下都是直接将文本分类模型部署于服务器11上,在本申请实施例中,文本分类模型常用于对用户输入的问题和对应的文本信息进行分析,以基于文本信息确定用户输入的问题是否准确的概率。
需要说明的是,本申请实施例提供的训练文本分类模型和文本分类的方法可以应用于各种包含有问答式通用语义文本分类任务的应用场景下。例如医疗领域中的各种自然语言处理任务中的文本分类这样的基础任务,但这样的基础任务往往对后续的任务至关重要。例如可用于判断病历文本中的疾病症状、药物等描述在文本中是否出现过,从而帮助医生做出辅助判断;另外还可以在多轮对话中对患者所描述疾病进行预先分类,进而导流到具体科室或具体主治医生以起到预问诊的作用。
相应的,在不同场景下所使用的训练样本不同。以医疗场景为例,所采用的训练样本为患者医生问答对和对应的病例;同样的,在使用已训练的文本分类模型进行文本分类时,在不同的场景下,所使用的问题和对应的文本信息也不相同,例如在医疗场景下,所使用的文本信息为病例,问题为患者输入的包含有各种疾病名称的判断问题。
当本申请实施例应用于医疗场景时,本申请还涉及云技术中的医疗云(Medicalcloud)。医疗云是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上,结合医疗技术,使用“云计算”来创建医疗健康服务云平台,实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用与结合,医疗云提高医疗机构的效率,方便居民就医。像现在医院的预约挂号、电子病历、医保等等都是云计算与医疗领域结合的产物,医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势;其中,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用***能够根据需要获取计算力、存储空间和信息服务。
在一种可能的应用场景中,云技术中还包括人工智能云服务技术领域,所谓人工智能云服务,一般也被称作是AIaaS(AI as a Service,AI即服务)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自己专属的云人工智能服务。本申请实施例提供的训练文本分类模型的方法可以基于上述的云技术实现。具体实施时,训练文本分类模型过程中涉及的各个人工智能服务拆分,比如语言模型编码层涉及的语言编码模型获取特征向量,全连接层的分类等进行拆分,并在云端提供独立或者打包的服务;或在训练文本分类模型时,可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务。
在本申请中,训练文本分类模型的训练样本还可以采用云存储技术进行存储。云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储***(以下简称存储***)是指通过集群应用、网格技术以及分布存储文件***等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储***。
在一种可能的应用场景中,为了便于降低通信时延,可以在各个地区部署服务器11,或为了负载均衡,可以由不同的服务器11分别去服务各个终端设备10对应的地区。多个服务器11以通过区块链实现数据的共享,多个服务器11相当于多个服务器11组成的数据共享***。例如终端设备10位于地点a,与服务器11之间进行通信连接,终端设备10位于地点b,与其他服务器11之间通信连接。
对于数据共享***中的每个服务器11,均具有与该服务器11对应的节点标识,数据共享***中的每个服务器11均可以存储有数据共享***中其他服务器11的节点标识,以便后续根据其他服务器11的节点标识,将生成的区块广播至数据共享***中的其他服务器11。每个服务器11中可维护一个如下表所示的节点标识列表,将服务器11名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,表1中仅以IP地址为例进行说明。
表1
服务器名称 | 节点标识 |
节点1 | 119.115.151.174 |
节点2 | 118.116.189.145 |
… | … |
节点N | 119.124.789.258 |
下面结合上述描述的应用场景,参考附图来描述本申请示例性实施方式提供的文本分类的方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
在本申请中,文本分类主要是问答式文本二分类,即通过已训练的文本分类模型对输入的文本信息和目标问题进行处理,基于文本信息确定目标问题答案概率,以给用户提供正确导向,节省用户时间。因此在本申请中先训练文本分类模型,在应用已训练的文本分类模型进行文本分类。
实施例一:第一种训练文本分类模型的方法。
如图2所示,为本申请实施例提供的一种训练文本分类模型的方法流程图,包括如下步骤:
步骤S200,获取第一训练样本集,第一训练样本集中的每个第一样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息。
以医疗场景进行举例:第一样本数据中包含有患者病例;以及针对该病例的至少一组问答对,问答对中包含患者针对该病例提出的问题和医生针对患者的问题给出的答案,如患者“医生我是患有内科疾病吗”、医生“是的”,或患者“医生我患有什么疾病呀”、医生“你患有内科疾病”。
在获取第一训练样本集后,基于第一训练样本集中的第一样本数据,对文本分类模型进行多轮第一迭代训练,以获得已训练的文本分类模型。
步骤S201,根据第一样本数据,对文本分类模型执行多轮第一迭代训练,以获得已训练的文本分类模型。
在本申请中,第一迭代训练的轮次可以是预先设置的;或者是根据训练过程中的停止条件确定的,停止条件可以是损失函数收敛至期望值,或损失函数到达到稳定在某一值后出现差异。
在本申请中,对文本分类模型执行多轮第一迭代训练时,文本分类模型的结构是不会发生变化的,如图3所示,为本申请实施例提供的一种文本分类模型的结构图,该文本分类模型300中包含有输入层301、语言模型编码层302、嵌入层303以及全连接层304。因此每轮第一迭代训练执行的操作是相同的,每轮第一迭代的过程如图4所示,为本申请实施例提供的第一种迭代训练文本分类模型的方法流程图,包括:
步骤S400,通过输入层将第一样本数据输入语言模型编码层,获得第一样本数据的第一特征向量。
在本申请中,语言模型编码层为BERT、Roberta、XLNet中的一种。
在本申请中,在训练过程中先将第一样本数据输入到输入层,再由输入层将第一样本数据输入到语言模型编码层进行编码处理,确定第一样本数据的地第一特征向量。
在一种可能的实现方式中,输入层对第一样本数据包含的文本信息和至少一组问答对进行数据拼接处理。
在进行数据拼接处理时,在数据开头设置一个[CLS]分类token,并将文本信息、问题和答案通过[SEP]连接;如图5所示,为本申请实施例提供的一种第一样本数据拼接处理的示意图。
在本申请中,经过语言模型编码后,第一样本数据中的每个字都会输出一个1*1024的向量作为这个字的特征向量,即文本信息中的每个字、问答对中的每个字都会输出一个1*1024的向量作为对应的第一特征向量。
步骤S401,将第一特征向量输入嵌入层,通过嵌入层中引入的关键词突出操作,根据第一特征向量中用于表征问答对的特征向量,对第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得文本信息的第二特征向量。
为了增加文本信息和问答对的关联关系,且得到更具有针对性的嵌入向量,本申请中在嵌入层引入了关键词突出操作,如图6所示的文本分类模型的结构图。
因此,在文本分类模型训练过程的嵌入层中,不仅对第一样本数据中的第一特征向量进行降维、生成固定维度的特征向量,还会对第一样本数据中文本信息中的字进行关键词突出操作,以得到文本信息中对应的第二特征向量。
在本申请中,通过嵌入层中的关键词突出操作,对文本信息中的字进行关键词突出操作,获得文本信息的第二特征向量的具体操作为:
识别第一样本数据的问答对中的关键词的词性,并根据词性设置词性标签集合。
识别出问答对中的关键词的词性,关键词倾向于包含更多有效的信息;词性标签包含名词、动词、形容词、副词、数字或外文词;即在本申请中,根据问答对中的关键词的词性标签设置更新词性标签集合。
针对第一样本数据的文本信息中的每个词,确定词性标签;即确定文本信息中的每个词是名词、动词还是形容词等。
判断文本信息中的每个词对应的词性标签是否在根据该文本信息对应的问答对中识别的词性标签集合中,并根据判定结果,对文本信息中的每个词的特征向量增加目标向量,以获得第二特征向量。
在本申请中,文本信息中的每个词的特征向量是通过嵌入层进行处理后的特征向量,进行处理的特征向量具有固定维度,且在嵌入层可以对特征向量进行降维处理。设每个词的特征向量为di。
进一步识别文本信息中的每个词的词性,判断该词性是否在根据问答对确定的词性标签集合中,若在该词性标签集合中,则加上一个l+向量,否则加上一个l-向量,其中l+和l-都是和di维度相同的词向量,且l+和l-为本申请实施例中的目标向量。
由上,文本信息中的每个词新生成的词向量为其中hi为l+或l-。即经过文本信息经过关键词突出操作得到的第二特征向量为/>之后用第二特征向量继续进行后续训练,这样文本信息中每个词的词向量就可以与问题和回答有更高的相关性。
需要说明的是,本申请的关键词突出操作在只有在同时有文本、问题和答案三种数据时,且针对问答式文本二分类任务进行训练时使用。
步骤S402,将第二特征向量和用于表征问答对的特征向量输入到全连接层,确定问答对中问题对应的答案概率。
在本申请中,在全连接层中设置一个用于文本分类的激活函数,且该全连接层相当于一个分类器。
在一种可能的实现例中,取第一个字符[CLS]的输出作为全连接层的输入,再经过激活函数针对文本分类学习任务得到最终的输出。
步骤S403,根据全连接层输出的答案概率和第一样本数据中的答案,反向调整语言模型编码层的模型参数。
根据文本分类模型基于文本信息对问答对中的问题输出的答案概率和第一文本训练数据问答对中的答案,确定一个损失函数,根据该损失函数反向调整语言模型编码层的模型参数。
在本申请中,按照步骤S400~步骤S403执行多轮第一迭代训练,以获得已训练的文本分类模型。
在一种可能的实现方式中,为了使模型能够学到更多的文本知识,本申请中还提出了一种生成正负样本的方法:从每个文本信息中随机生成nq个问题和相关的答案。具体操作为:随机从文本信息中抽取ns个词,并将抽取的词进行拼接作为问答对中的问题,然后将文本信息中剩余的词进行拼接作为问答对中的答案,其中nq和ns为正整数。
本申请中,为了增加文本分类模型的泛化性,以及学习知识的能力,在已训练的文本分类模型的基础上对文本分类模型的模型参数进行微调。在该过程中使用迁移学习以文本分类任务训练的得到的文本分类模型作为模型初始点,进行相似任务再训练即多任务学习,增加模型的学习效率并提高模型的泛化性;同时在训练过程中为了增加数据的多样性和模型的鲁棒性,通过多种数据增强技术给模型的训练数据引入不同程度的噪音。具体详见实施例二的文本分类模型的训练过程。
实施例二:第二种文本分类模型的训练方法。
如图7所示,为本申请实施例提供的另一种文本分类模型的结构图,该文本分类模型700中包含输入层701、语言模型编码层702、嵌入层703以及多个全连接层704,其中多个全连接层中包含一个用于实现文本分类主任务的全连接层,以及至少一个用于实现与文本分类主任务相似但不同的副任务的全连接层,其中每个全连接层中的激活函数不同,且对应的损失函数不同。
如图7所示,与本申请中与文本分类主任务相似但不同的副任务包括但不限于:文本蕴含、多任务选择。
且文本蕴含任务对应一个单独的全连接层,多任务选择任务对应一个单独的全连接层。
需要说明的是,该文本分类模型中的输入层、语言模型编码层以及嵌入层采用实施例一中训练得到的文本分类模型的中的输入层、语言模型编码层以及嵌入层,且由于引入了其他任务,不在仅是对文本分类任务进行训练,因此在此训练过程中嵌入层未引入关键词突出操作。
如图8所示,为本申请实施例提供的另一种文本分类模型的训练方法流程图,包括如下步骤:
步骤S800,获取第二训练样本集,第二训练样本集中包含经过数据增强处理后的第二样本数据,且每个第二样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息。
在本申请中,数据增强处理包括下列之一或组合:
随机替换同义词,即按照设定的第一比例随机将文本数据中的词替换为同义词表中的词;
随机***词语,即按照设定的第二比例随机挑选文本中的词并将其随机***在文本中的任一位置;
随机删除词语,即按照设定的第三比例随机删除文本信息中的词;
随机反转词语,即按照设定的第四比例随机选定文本信息中的两个词并进行位置反转。
步骤S801,根据第二样本数据在已训练的文本分类模型基础上,执行多轮第二迭代训练,以获得再次训练的文本分类模型。
需要说明的是,每轮第二迭代训练执行的操作是相同的,因此本申请仅针对一轮第二迭代训练进行说明,如图9所示,为本申请实施例提供的第二种迭代训练文本分类模型的方法流程图,包括:
步骤S900,通过输入层将第二样本数据输入已训练的文本分类模型的语言模型编码层,获得第二样本数据的特征向量。
具体可以参见实施例一中的描述,在此不再赘述。
步骤S901,将第二样本数据的特征向量通过已训练的文本分类模型的嵌入层,生成固定维度的特征向量。
步骤S902,将嵌入层输出的特征向量分别输入到每个任务对应的全连接层,并确定每个任务对应的损失函数。
在本申请中,每个任务对应的全连接层都会输出一个相应的结果,将输出的结果与输入的带有标注的预设结果进行比较,确定每个任务对应的损失函数。
步骤S903,根据每个任务的损失函数,反向调整已训练的文本分类模型的语言模型编码层的模型参数。
在本申请中,在根据每个任务的损失函数,反向调整已训练的文本分类模型的语言模型编码层的模型参数时:
根据各个全连接层的输出结果与对应的预设结果,确定多个损失函数;根据预先设置的主任务和副任务的权重分配,对各个任务对应的损失函数进行加权处理,得到目标损失函数;根据目标损失函数反向调整语言模型编码层的模型参数。
比如,预先设置文本分类任务:文本蕴含任务:多任务选择任务为8:1:1,则在确定目标损失函数时,按照文本分类任务损失函数:文本蕴含任务损失函数:多任务选择任务损失函数为8:1:1的权重比例确定目标损失函数。
在本申请中,为使模型在学到更多知识的同时避免模型过拟合导致性能下降,对模型中的主任务与副任务设置的权重分配。多任务权重可以体现某个任务在最终结果中的重要性占比,由于本申请中文本分类任务比较重要,因此设置该文本分类任务的权重最大。
需要说明的是,在实施例一和实施例二文本分类模型训练的过程中还可以引用对抗训练。因为在文本分类模型的训练过程中,当文本数据发生一些微小的扰动就能轻易改变文本分类模型的预测结果,导致文本分类模型的预测不够准确。将该种扰动称之为对抗扰动,扰动后的输入称为对抗样本,将输入对抗样本误导模型的这一过程称为对抗攻击。文本分类模型遭遇对抗攻击时所表现出的脆弱性,给实际应用带来了极大的风险。
为了提升文本分类模型对于对抗攻击的鲁棒性,本申请提出一种对抗训练的方法,对抗训练是一种引入噪声的训练方式,可以对模型参数进行正则化,对抗训练指的是在模型的训练过程中构建对抗样本并将对抗样本和原始样本混合一起训练模型的方法,换句话说就是在模型训练的过程中对模型进行对抗攻击从而提升模型对于对抗攻击的鲁棒性和泛化能力。
在本申请中,利用FGM算法在经过语言模型编码得到的特征向量的基础之上增加一个扰动radv=∈g/‖g‖2,其中g为输入梯度增加该扰动以增加模型收敛的难度达到对抗训练的效果。
采用的FGM算法具体如下:
对于训练的每个文本训练数据:
计算样本数据特征向量(X)的前向损失Loss,反向传播得到第一梯度值;
其中,前向损失Loss是根据语言模型编码输出的特征向量,经过嵌入层和全连接层后输出的结果与样本数据中的答案进行比较确定的。
根据嵌入矩阵的梯度值与第一梯度值计算出扰动向量radv,并将扰动向量加到当前的嵌入向量上,得到对抗向量(X+radv);
计算对抗向量(X+radv)的前向损失Loss、反向传播得到对抗梯度值,并针对该对抗梯度值累加第一梯度值,获得目标梯度值;
进一步根据目标梯度值,调整语言模型编码层的模型参数。
本申请提出了一种问答式文本分类模型的训练方法,并在训练过程中提供一种关键词突出操作,以及结合了多种增强策略,其中增强策略包括数据增强、迁移学习、多任务学习以及对抗训练。关键词突出操作通过对问答对中的词进行词性识别,然后判断文本信息中的每个词的词性是否和识别出来的问答对中的词性匹配,并加入匹配信息以生成新的词向量进行训练,该算法能够帮助模型更好地学习到文本中的关键信息。为增强模型的泛化能力采用了多种数据增强技术,通过一定的比例对文本信息中的某些词进行随机删除、替换以及***,给模型的训练数据增加了噪音。迁移学习通过在具有相似数据源的更大数据集上进行训练,同时引入对抗训练以得到初始模型,再和具有相似任务的数据集进行联合训练即多任务学习,可以增强模型的泛化性以及学习知识的能力。本申请提出的模型在文本分类任务上取得了极高的准确率。
实施例三:文本分类的方法。
如图10所示,为本申请实施例提供的一种文本分类的方法流程图,包括如下步骤:
步骤S1000,获取包含有文本数据的文本分类请求,其中文本数据包含目标问题和用于判断目标问题是否正确的目标文本信息。
需要说明的是,在本申请中,目标问题为包含有目标名词的判断问题。
以医疗场景为例进行举例说明,目标文本信息为患者的病例,目标问题为患者输入的问题,输入的问题为包含有目标名词的判断问题,比如“是否患有内科疾病”,该目标问题为判断性问题,包含的目标名词为“内科疾病”。
步骤S1001,将文本数据输入到已训练的文本分类模型中,基于已训练的文本分类模型,确定目标问题是否正确的文本分类结果。
其中已训练的文本分类模型为通过本申请中实施例一和实施例二的方法训练得到的。
比如,将患者的病例和“是否患有内科疾病”的目标问题输入到已训练文本分类模型中,文本分类模型将针对目标问题输出“是”和“否”的概率值,并根据该概率值可以确定目标问题对应的分类结果,即根据该患者的病例确定该患者是否患有内科疾病。
在本申请中,已训练的文本分类模型包含输入层、语言模型编码层、嵌入层以及全连接层。在文本分类过程中,将文本数据输入到已训练的文本分类模型中,将依次通过文本分类模型中的各个层对文本数据进行处理,并最终输出文本分类结果。
如图11所示,为本申请实施例提供的一种文本分类的整体方法流程图,包括:
步骤S1100,获取包含有文本数据的文本分类请求;
其中,文本数据为目标文本信息和目标问题,目标问题为包含有目标名词的判断问题。
步骤S1101,将文本数据输入已训练的文本分类模型,通过输入层对文本数据中的目标文本信息和目标问题进行拼接处理。
步骤S1102,经由输入层将拼接处理后的文本数据传输到语言模型编码层,通过语言模型编码层进行编码处理,获得文本数据的特征向量。
在本申请中,经过语言模型编码后,文本数据中的每个字都会输出一个1*1024的向量作为这个字的特征向量。
步骤S1103,经由语言模型编码层将特征向量传输到嵌入层,通过嵌入层对特征向量进行处理,获得固定维度的特征向量。
由于语言模型编码层输出的每个字的维度不固定,因此通过嵌入层生成固定维度的特征向量;
在一种可能的实现方式中,语言模型编码层输出的字的特征向量的维度较大,影响计算效率,此时通过嵌入层还可以对特征向量进行降维处理。
步骤S1104,经由嵌入层将目标特征向量输入到全连接层,通过全连接层进行分类处理,确定分类结果。
在本申请中,全连接层中包含针对文本分类的激活函数,该激活函数针对文本分类任务得到最终的分类结果。需要说明的是,全连接层在本申请中相当于文本分类器。
由于本申请的文本分类方法主要基于问答式的文本分类,因此在模型训练过程中引入关键词突出操作,以通过关键词突出操作将问答对的信息引入文本信息的嵌入向量过程中,使得文本信息的嵌入向量更加与问答相关,以提升已训练的文本分类模型对问答式文本分类的准确性。
基于同一发明构思,本申请实施例还提供了一种训练文本分类模型的装置1200,如图12所示,该装置1200包括:第一获取单元1201以及训练单元1202,其中:
第一获取单元1201,用于获取第一训练样本集,第一训练样本集中的每个第一样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;
训练单元1202,用于根据第一样本数据,对文本分类模型执行多轮第一迭代训练,以获得已训练的文本分类模型;
其中,文本分类模型包含输入层、语言模型编码层、嵌入层以及全连接层,训练单元1202具体用于:
通过输入层将第一样本数据输入语言模型编码层,获得第一样本数据的第一特征向量;将第一特征向量输入嵌入层,通过嵌入层中引入的关键词突出操作,根据第一特征向量中用于表征问答对的特征向量,对第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得文本信息的第二特征向量;将第二特征向量和用于表征问答对的特征向量输入到全连接层,确定问答对中问题对应的答案概率;根据全连接层输出的答案概率和第一样本数据中的答案,反向调整语言模型编码层的模型参数。
在一种可能的实现方式中,训练单元1202具体用于:
识别第一样本数据的问答对中关键词的词性,并根据词性设置词性标签集合;针对所第一样本数据的文本信息中的每个词,确定词性标签,并根据词性标签是否在词性标签集合中的判定结果,对每个词的特征向量增加目标向量,以获得第二特征向量。
在一种可能的实现方式中,在嵌入层之后继续设置至少一个全连接层,每个全连接层对应一个任务,并针对每个任务设置一个损失函数;
第一获取单元1201,还用于获取第二训练样本集,第二训练样本集中包含经过数据增强处理后的第二样本数据,且每个第二样本数据包含至少一组问答对和用于确定问答对中问题的答案的文本信息;
训练单元1202,还用于根据第二样本数据在已训练的文本分类模型基础上,执行多轮第二迭代训练,以获得再次训练的文本分类模型;
训练单元1202具体用于:
通过输入层将第二样本数据输入已训练的文本分类模型的语言模型编码层,获得第二样本数据的特征向量;将第二样本数据的特征向量通过已训练的文本分类模型的嵌入层,生成固定维度的特征向量;将嵌入层输出的特征向量分别输入到每个任务对应的全连接层,并确定每个任务对应的损失函数;根据每个任务的损失函数,反向调整已训练的文本分类模型的语言模型编码层的模型参数。
在一种可能的实现方式中,训练单元1202具体用于:
按照预先设定的任务权重比例,对每个任务对应的损失函数进行加权处理,得到目标损失函数;根据目标损失函数,反向调整已训练的文本分类模型的语言模型编码层的模型参数。
在一种可能的实现方式中,数据增强处理包括下列之一或组合:
按照设定的第一比例随机将文本数据中的词替换为同义词表中的词;
按照设定的第二比例随机挑选文本中的词并将其随机***在文本中的任一位置;
按照设定的第三比例随机删除文本信息中的词;
按照设定的第四比例随机选定文本信息中的两个词并进行位置反转。
在一种可能的实现方式中,训练单元1202还用于:
根据语言模型编码层输出的特征向量,获得第一损失函数;根据第一损失函数,确定第一梯度值;根据嵌入矩阵的梯度值与第一梯度值计算出扰动向量,并加到嵌入降维处理后的特征向量上,得到对抗向量;根据对抗向量,确定第二损失函数;根据第二损失函数,反向得到对抗梯度值,累加到第一梯度值上,获得目标梯度;根据目标梯度,调整语言模型编码层的模型参数。
在一种可能的实现方式中,语言模型编码层为BERT、Roberta、XLNet中的一种。
基于同一发明构思,本申请实施例还提供了一种文本分类的装置1300,如图13所示,该装置1300包括:第二获取单元1301以及确定单元1302,其中:
第二获取单元1301,用于获取包含有文本数据的文本分类请求,其中文本数据包含目标问题和用于判断目标问题是否正确的目标文本信息;
确定单元1302,用于将文本数据输入到已训练的文本分类模型中,基于已训练的文本分类模型,确定目标问题是否正确的文本分类结果;其中已训练的文本分类模型为通过本申请实施例提供的训练文本分类模型的方法训练得到的。
为了描述的方便,以上各部分按照功能划分为各单元(或模块)分别描述。当然,在实施本申请时可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。
在介绍了本申请示例性实施方式文本分类的方法和装置及对应的文本分类模型训练的方法及装置之后,接下来,介绍根据本申请的另一示例性实施方式的文本分类过程或文本分类模型训练过程中的计算装置。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为***、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“***”。
在一种可能的实现方式中,本申请实施例提供的计算装置可以至少包括处理器和存储器。其中,存储器存储有程序代码,当程序代码被处理器执行时,使得处理器执行本申请中各种示例性实施方式的文本分类的方法中的任一步骤,以及执行本申请中各种示例性实施方式的文本分类模型训练的方法中的任一步骤。
在一些可能的实施方式中,本申请实施例还提供一种计算机可读存储介质,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行上述实施例中任一种文本分类的方法的步骤,以及执行上述实施例中任一文本分类模型训练的方法的步骤。
下面参照图14来描述根据本申请的这种实施方式的计算装置1400。图14的计算装置1400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图14,计算装置1400以通用计算装置的形式表现。计算装置1400的组件可以包括但不限于:上述至少一个处理器1401、上述至少一个存储单元1402、连接不同***组件(包括存储单元1402和处理器1401)的总线1403。
总线1403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、***总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1402可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)14021和/或高速缓存存储单元14022,还可以进一步包括只读存储器(ROM)14023。
存储单元1402还可以包括具有一组(至少一个)程序模块14024的程序/实用工具14025,这样的程序模块14024包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置1400也可以与一个或多个外部设备1404(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置1400交互的设备通信,和/或与使得该计算装置1400能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1405进行。并且,计算装置1400还可以通过网络适配器1406与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1406通过总线1403与用于计算装置1400的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置1400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。
在一些可能的实施方式中,本申请提供的文本分类的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的文本分类的方法中的步骤,以及文本分类模型训练的方法。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上参照示出根据本申请实施例的方法、装置(***)和/或计算机程序产品的框图和/或流程图描述本申请。应理解,可以通过计算机程序指令来实现框图和/或流程图示图的一个块以及框图和/或流程图示图的块的组合。可以将这些计算机程序指令提供给通用计算机、专用计算机的处理器和/或其它可编程数据处理装置,以产生机器,使得经由计算机处理器和/或其它可编程数据处理装置执行的指令创建用于实现框图和/或流程图块中所指定的功能/动作的方法。
相应地,还可以用硬件和/或软件(包括固件、驻留软件、微码等)来实施本申请。更进一步地,本申请可以采取计算机可使用或计算机可读存储介质上的计算机程序产品的形式,其具有在介质中实现的计算机可使用或计算机可读程序代码,以由指令执行***来使用或结合指令执行***而使用。在本申请上下文中,计算机可使用或计算机可读介质可以是任意介质,其可以包含、存储、通信、传输、或传送程序,以由指令执行***、装置或设备使用,或结合指令执行***、装置或设备使用。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种训练文本分类模型的方法,其特征在于,该方法包括:
获取第一训练样本集,所述第一训练样本集中的每个第一样本数据包含至少一组问答对和用于确定所述问答对中问题的答案的文本信息;
根据所述第一样本数据,对文本分类模型执行多轮第一迭代训练,以获得已训练的文本分类模型;
其中,所述文本分类模型包含输入层、语言模型编码层、嵌入层以及全连接层,每轮第一迭代训练过程为:
通过所述输入层将所述第一样本数据输入所述语言模型编码层,获得所述第一样本数据的第一特征向量;
将所述第一特征向量输入所述嵌入层,通过所述嵌入层中引入的关键词突出操作,根据所述第一特征向量中用于表征问答对的特征向量,对所述第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得所述文本信息的第二特征向量;
将所述第二特征向量和所述用于表征所述问答对的特征向量输入到所述全连接层,确定所述问答对中问题对应的答案概率;
根据所述全连接层输出的答案概率和所述第一样本数据中的答案,反向调整所述语言模型编码层的模型参数;
其中,所述通过所述嵌入层中引入的关键词突出操作,根据所述第一特征向量用于表征问答对的特征向量,对所述第一特征向量用于表征文本信息的特征向量进行关键词突出,以获得所述文本信息的第二特征向量,包括:
识别所述第一样本数据的问答对中关键词的词性,并根据所述词性设置词性标签集合;
针对所述第一样本数据的文本信息中的每个词,确定词性标签,并根据所述词性标签是否在所述词性标签集合中的判定结果,对所述每个词的特征向量增加目标向量,以获得所述第二特征向量。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
在所述嵌入层之后继续设置至少一个全连接层,每个全连接层对应一个任务,并针对每个任务设置一个损失函数;
获取第二训练样本集,所述第二训练样本集中包含经过数据增强处理后的第二样本数据,且每个第二样本数据包含至少一组问答对和用于确定所述问答对中问题的答案的文本信息;
根据所述第二样本数据在所述已训练的文本分类模型基础上,执行多轮第二迭代训练,以获得再次训练的文本分类模型;
其中,每轮第二迭代训练过程为:
通过所述输入层将所述第二样本数据输入所述已训练的文本分类模型的语言模型编码层,获得所述第二样本数据的特征向量;
将所述第二样本数据的特征向量通过所述已训练的文本分类模型的嵌入层,生成固定维度的特征向量;
将所述嵌入层输出的特征向量分别输入到每个任务对应的全连接层,并确定每个任务对应的损失函数;
根据所述每个任务的损失函数,反向调整所述已训练的文本分类模型的语言模型编码层的模型参数。
3.如权利要求2所述的方法,其特征在于,所述根据所述每个任务的损失函数,反向调整所述已训练的文本分类模型的语言模型编码层的模型参数,包括:
按照预先设定的任务权重比例,对每个任务对应的损失函数进行加权处理,得到目标损失函数;
根据所述目标损失函数,反向调整所述已训练的文本分类模型的语言模型编码层的模型参数。
4.如权利要求2所述的方法,其特征在于,所述数据增强处理包括下列之一或组合:
按照设定的第一比例随机将文本数据中的词替换为同义词表中的词;
按照设定的第二比例随机挑选文本中的词并将其随机***在文本中的任一位置;
按照设定的第三比例随机删除文本信息中的词;
按照设定的第四比例随机选定文本信息中的两个词并进行位置反转。
5.如权利要求1或2所述的方法,其特征在于,该方法还包括:
根据所述语言模型编码层输出的特征向量,获得第一损失函数;
根据所述第一损失函数,确定第一梯度值;
根据嵌入矩阵的梯度值与第一梯度值计算出扰动向量,并加到所述嵌入层降维处理后的特征向量上,得到对抗向量;
根据所述对抗向量,确定第二损失函数;
根据所述第二损失函数,反向得到对抗梯度值,累加到所述第一梯度值上,获得目标梯度;
根据所述目标梯度,调整所述语言模型编码层的模型参数。
6.一种文本分类的方法,其特征在于,该方法包括:
获取包含有文本数据的文本分类请求,其中所述文本数据包含目标问题和用于判断所述目标问题是否正确的目标文本信息;
将所述文本数据输入到已训练的文本分类模型中,基于所述已训练的文本分类模型,确定所述目标问题是否正确的文本分类结果;其中所述已训练的文本分类模型为通过权利要求1~5任一项所述的方法训练得到的。
7.一种训练文本分类模型的装置,其特征在于,该装置包括:
第一获取单元,用于获取第一训练样本集,所述第一训练样本集中的每个第一样本数据包含至少一组问答对和用于确定所述问答对中问题的答案的文本信息;
训练单元,用于根据所述第一样本数据,对文本分类模型执行多轮第一迭代训练,以获得已训练的文本分类模型;
其中,所述文本分类模型包含输入层、语言模型编码层、嵌入层以及全连接层,所述训练单元具体用于:
通过所述输入层将所述第一样本数据输入所述语言模型编码层,获得所述第一样本数据的第一特征向量;
将所述第一特征向量输入所述嵌入层,通过所述嵌入层中引入的关键词突出操作,根据所述第一特征向量中用于表征问答对的特征向量,对所述第一特征向量中用于表征文本信息的特征向量进行关键词突出,以获得所述文本信息的第二特征向量;
将所述第二特征向量和所述用于表征所述问答对的特征向量输入到所述全连接层,确定所述问答对中问题对应的答案概率;
根据所述全连接层输出的答案概率和所述第一样本数据中的答案,反向调整所述语言模型编码层的模型参数;
其中,所述训练单元具体用于:
识别所述第一样本数据的问答对中关键词的词性,并根据所述词性设置词性标签集合;
针对所述第一样本数据的文本信息中的每个词,确定词性标签,并根据所述词性标签是否在所述词性标签集合中的判定结果,对所述每个词的特征向量增加目标向量,以获得所述第二特征向量。
8.一种计算装置,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~5中任一所述方法的步骤或权利要求6中所述方法的步骤。
9.一种计算机可读存储介质,其特征在于,其包括程序代码,当所述程序代码在电子设备上运行时,所述程序代码用于使所述电子设备执行权利要求1~5中任一所述方法的步骤或权利要求6中所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009658.0A CN112131366B (zh) | 2020-09-23 | 2020-09-23 | 训练文本分类模型及文本分类的方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011009658.0A CN112131366B (zh) | 2020-09-23 | 2020-09-23 | 训练文本分类模型及文本分类的方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131366A CN112131366A (zh) | 2020-12-25 |
CN112131366B true CN112131366B (zh) | 2024-02-09 |
Family
ID=73841249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011009658.0A Active CN112131366B (zh) | 2020-09-23 | 2020-09-23 | 训练文本分类模型及文本分类的方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131366B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966712B (zh) * | 2021-02-01 | 2023-01-20 | 北京三快在线科技有限公司 | 语言模型训练方法、装置、电子设备和计算机可读介质 |
CN112948582B (zh) * | 2021-02-25 | 2024-01-19 | 平安科技(深圳)有限公司 | 一种数据处理方法、装置、设备以及可读介质 |
CN112989843B (zh) * | 2021-03-17 | 2023-07-25 | 中国平安人寿保险股份有限公司 | 意图识别方法、装置、计算设备及存储介质 |
CN113053516A (zh) * | 2021-03-26 | 2021-06-29 | 安徽科大讯飞医疗信息技术有限公司 | 一种对抗样本生成方法、装置、设备及存储介质 |
CN113159187B (zh) * | 2021-04-23 | 2024-06-14 | 北京金山数字娱乐科技有限公司 | 分类模型训练方法及装置、目标文本确定方法及装置 |
CN113011529B (zh) * | 2021-04-28 | 2024-05-07 | 平安科技(深圳)有限公司 | 文本分类模型的训练方法、装置、设备及可读存储介质 |
CN113392321A (zh) * | 2021-06-02 | 2021-09-14 | 北京三快在线科技有限公司 | 一种信息推荐方法、装置、电子设备及存储介质 |
CN113268579B (zh) * | 2021-06-24 | 2023-12-08 | 中国平安人寿保险股份有限公司 | 对话内容类别识别方法、装置、计算机设备及存储介质 |
CN113326379A (zh) * | 2021-06-30 | 2021-08-31 | 中国平安人寿保险股份有限公司 | 文本分类预测方法、装置、设备及存储介质 |
CN113590761B (zh) * | 2021-08-13 | 2022-03-25 | 网易有道信息技术(北京)有限公司 | 文本处理模型的训练方法、文本处理方法及相关设备 |
CN113672736B (zh) * | 2021-09-09 | 2023-08-22 | 上海德拓信息技术股份有限公司 | 一种文本多标签分类方法及*** |
CN114386424B (zh) * | 2022-03-24 | 2022-06-10 | 上海帜讯信息技术股份有限公司 | 行业专业文本自动标注方法、装置、终端及存储介质 |
CN114841162B (zh) * | 2022-05-20 | 2024-01-05 | 中国电信股份有限公司 | 文本处理方法、装置、设备及介质 |
CN115310622B (zh) * | 2022-10-12 | 2023-01-17 | 中国科学技术大学 | 一种基于自适应专家***的智能问答方法 |
CN116861302B (zh) * | 2023-09-05 | 2024-01-23 | 吉奥时空信息技术股份有限公司 | 一种案件自动分类分拨方法 |
CN117743696B (zh) * | 2024-02-18 | 2024-04-30 | 四川日报网络传媒发展有限公司 | 基于反馈强化学习的信息发布方法、装置及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019113122A1 (en) * | 2017-12-04 | 2019-06-13 | Conversica, Inc. | Systems and methods for improved machine learning for conversations |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索***及方法 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN110309282A (zh) * | 2019-06-14 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 一种答案确定方法及装置 |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN110781663A (zh) * | 2019-10-28 | 2020-02-11 | 北京金山数字娱乐科技有限公司 | 文本分析模型的训练方法及装置、文本分析方法及装置 |
CN110851604A (zh) * | 2019-11-12 | 2020-02-28 | 中科鼎富(北京)科技发展有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN111177325A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 一种自动生成答案的方法和*** |
WO2020147395A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于情感的文本分类处理方法、装置和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334605B (zh) * | 2018-02-01 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
-
2020
- 2020-09-23 CN CN202011009658.0A patent/CN112131366B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019113122A1 (en) * | 2017-12-04 | 2019-06-13 | Conversica, Inc. | Systems and methods for improved machine learning for conversations |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
WO2020147395A1 (zh) * | 2019-01-17 | 2020-07-23 | 平安科技(深圳)有限公司 | 基于情感的文本分类处理方法、装置和计算机设备 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索***及方法 |
CN110309282A (zh) * | 2019-06-14 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 一种答案确定方法及装置 |
CN110309305A (zh) * | 2019-06-14 | 2019-10-08 | 中国电子科技集团公司第二十八研究所 | 基于多任务联合训练的机器阅读理解方法及计算机存储介质 |
CN110781663A (zh) * | 2019-10-28 | 2020-02-11 | 北京金山数字娱乐科技有限公司 | 文本分析模型的训练方法及装置、文本分析方法及装置 |
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN110851604A (zh) * | 2019-11-12 | 2020-02-28 | 中科鼎富(北京)科技发展有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN111177325A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 一种自动生成答案的方法和*** |
Non-Patent Citations (1)
Title |
---|
基于注意力和字嵌入的中文医疗问答匹配方法;陈志豪等;计算机应用(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112131366A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
US10963794B2 (en) | Concept analysis operations utilizing accelerators | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
US20170262783A1 (en) | Team Formation | |
US11507828B2 (en) | Unsupervised hypernym induction machine learning | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
US20180309874A1 (en) | System and method for a cognitive system plug-in answering subject matter expert questions | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN110929523B (zh) | 共指解析和实体链接 | |
KR20180055680A (ko) | 사용자 대화 의도 추출 기능 구비 채트봇을 활용한 헬스케어 지침 제공 방법 및 이를 위한 장치 | |
US10552461B2 (en) | System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of a candidate answer | |
US10902342B2 (en) | System and method for scoring the geographic relevance of answers in a deep question answering system based on geographic context of an input question | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN114648032B (zh) | 语义理解模型的训练方法、装置和计算机设备 | |
CN116796857A (zh) | 一种llm模型训练方法、装置、设备及其存储介质 | |
CN116956934A (zh) | 任务处理方法、装置、设备及存储介质 | |
US11880664B2 (en) | Identifying and transforming text difficult to understand by user | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
Amanatidis et al. | A Convolutional Neural Network for Sentiment Analysis of TripAdvisor reviews | |
Chowdhury et al. | Improving medical nli using context-aware domain knowledge | |
CN113779225B (zh) | 实体链接模型的训练方法、实体链接方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |